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摘要 : 由 于 光 球 亮点 尺度 小 、 边 缘 结 构 不 明显 等 原因 ， 在 识别 中 一 部 分 发 亮 的 碎 米粒 不 
可 避免 地 被 误 识别 为 亮点 。 采 用 基于 划分 的 K-means 算法 和 基于 密度 的 DBSCAN 算法 分 别 
清洗 所 有 发 亮 结 构 的 特征 数据 ， 拟 将 非 亮 点 结构 从 亮点 结构 中 剔除 。 首 先 采 用 LMD 算法 和 
三 维 联通 的 思想 识别 和 跟踪 亮点 ， 然 后 提取 亮点 的 7 个 相关 度 较 低 的 特征 值 ， 包 括 等 效 直 
径 、 强 度 、 偏 心率 、 亮 点 边缘 位 于 米粒 瞳 径 的 比例 、 速 度 、 运 动 方式 和 扩散 系数 ， 并 在 数据 
标准 化 后 ， 采 用 主 成 分 分 析 法 根据 90% 的 贡献 率 降 至 三 维 。 最 后 采用 K-means 算法 和 
DBSCAN 算法 对 亮点 数据 进行 清洗 。 实 验 结果 表明 ， 两 种 算法 均 能 清洗 非 亮点 结构 ，K- 
means 算法 的 正确 率 为 80%, DBSCAN 算法 的 正确 率 为 533% 。 因 此 ，K-means 算法 能 够 更 有 
效 地 区 分 亮点 和 非 亮点 结构 。 
关键 词 ， 光 球 亮点 ; 非 亮点 结构 ; 聚 类 算法 ; K-means 算法 ; DBSCAN 算法 
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太阳 光 球 表面 布 满 了 米粒 状 结构 ， 在 米粒 的 暗 径 中 有 一 些 发 亮 的 结构 ， 称 为 光 球 亮点 (Photospheric 
bright points，PBPs) 。 普 遍 认 为 ， 光 球 亮点 与 磁场 有 密切 关系 ， 通 过 研究 光 球 亮点 可 以 促进 太阳 磁场 
的 研究 ， 促 进 更 深层 和 更 热 的 等 离子 体 和 日 冕 加 热 等 太阳 物理 现象 的 研究 。 但 是 ， 光 球 亮点 很 容 
易 和 发 亮 的 雄 米 粒 以 及 其 他 局 部 强度 较 高 的 太阳 表面 小 尺度 特征 相 混 淆 。 目 前 在 二 维 图 像 上 识别 亮点 
主要 采用 国 值 法 、 区 域 生 长 法 和 形态 学 等 几 种 技术 。 浆 值 法 通过 设置 一 个 或 几 个 浆 值 将 图 像 的 灰 度 级 
分 为 几 部 分 ， 认 为 属于 同一 部 分 的 像素 是 同一 个 物体 ; 区 域 生 长 法 是 从 初始 区 域 开始 ， 将 相 邻 的 
具有 同样 性 质 的 像素 或 其 它 区域 归 并 到 目前 的 区 域 中 ， 从 而 逐步 增长 区 域 ， 直 至 没有 可 以 归并 的 点 或 
其 它 小 区 域 为 止 ” ;形态 学 是 用 具有 一 定形 态 的 结构 元 素 度量 和 提取 图 像 中 的 对 应 形状 以 达到 对 图 
像 分 析 和 识别 的 目的 。 但 这 些 方法 在 识别 时 一 部 分 发 亮 的 碎 米 粒 会 被 误 识 别 为 亮点 。 

数据 清洗 是 近年 来 随 着 数据 挖掘 的 发 展 而 出 现 的 一 门 新 兴 技 术 ， 是 指 从 数据 集中 发 现 并 纠正 “ 脏 
数据 ” ， 即 从 数据 文件 中 检测 出 错误 和 不 一 致 的 数据 ， 并 剔除 或 修正 它们 ， 以 提高 数据 质量 。 

近年 来 国内 外 学 者 提出 通过 聚 类 方法 实现 数据 清洗 "”。 聚 类 分 析 是 将 研究 对 象 分 为 相对 同 质 的 
群 组 的 统计 分 析 技术 ， 目 的 是 发 现 数据 间 的 关系 ， 将 相似 的 归 为 一 类 ， 相 蜡 的 互 为 一 类 。 按 照 聚 
类 分 析 算 法 的 主要 思路 ， 聚 类 算法 可 以 归纳 为 划分 法 、 层 次 法 、 基 于 密度 的 方法 、 基 于 网 格 的 方法 和 
基于 模型 的 方法 ""” 。 其 中 ， 基 于 划分 和 基于 密度 是 两 种 高 效 的 适合 大 型 数据 集 的 聚 类 方法 ， 常 用 于 
图 像 分 析 、 图 像 处 理 等 领域 。 

本 文 提 出 采用 聚 类 分 析 的 K-means 算法 和 DBSCAN 算法 对 亮点 数据 进行 清洗 ， 达 到 将 非 亮点 结 
构 从 亮点 结构 中 剔除 的 目的 。 论 文 第 1 节 介 绍 了 数据 的 来 源 以 及 数据 的 提取 ; 第 2 节 介 绍 了 聚 类 数据 
的 预 处 理 和 聚 类 方法 ; 第 3 节 介 绍 了 光 球 亮点 进行 清洗 后 的 结果 和 分 析 ; 第 4 市 进行 总 结 。 
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1 数 据 


1.1 数据 来 源 
本 文 的 实验 数据 是 Hinode/Solar Optical Telescope (SOT; Ichimoto et al. 2004; Suematsu et al. 2008) 
于 2007 年 2 月 19 日 18 时 19 分 到 20 时 40 分 在 G 波段 观测 的 日 面 中 心 附近 宁静 区 的 高 分 辨 序列 图 


像 。 该 组 数据 的 像 元 分 辨 率 为 0. 054 arcsec/ pixel ， 视 场 大 小 为 20 arcsec x 20 arcsec , 时 间 分 辨 率 为 11 s, 
一 共 由 758 张 图 组 成 。 图 1 (a) 为 序列 中 的 第 1 帧 高 分 辨 图 像 。 
1.2 数据 提取 


1.2.1 亮点 数据 识别 与 跟踪 

首先 用 一 个 基于 局 部 相关 的 亚 像 元 级 对 齐 算 法 把 序列 图 像 对 齐 " ， 然 后 采用 拉 普 拉 斯 形态 学 算 
法 (Laplacian and Morphological Dilatation, LMD) 识别 光 球 亮点 。 图 1(b) 显示 了 识别 出 的 亮点 在 原 图 点 
亮 的 结果 。 


图 1 (a) Hinode 上 的 SOT 于 2007 年 12 月 19 日 在 G-band 观 测 的 日 面 中 心 附近 
Ba: (b) 用 LMD 识别 的 亮点 在 原 图 中 点 亮 的 结果 
Fig.1 (a) The G-band image observed with the SOT onboard the Hinode at 18: 19 UT 
on 2007 February 19; (b) The PBPs detected by LMD algorithm 


在 序列 图 像 的 每 一 幅 图 上 识别 出 亮点 后 ， 采 用 三 维 时 空 立方 体 的 思想 对 光 球 亮点 以 26 联通 的 思 
AR! 。 如 果 一 个 亮点 在 生命 期 中 没有 发 生 过 合并 或 者 分 裂 ， 则 称 之 为 孤立 点 ， 否 则 称 为 非 孤 立 
点 。 在 三 维 立 方 体 中 ， 扳 立 点 的 演化 过 程 表现 为 一 个 圆柱 形 结构 ， 其 水 平 速 度 显示 为 这 个 圆柱 状 结构 
在 时 间 轴 上 的 扭曲 情况 ， 而 生命 周期 就 是 这 个 圆柱 状 结构 在 时 间 轴 上 的 开始 和 截止 。 

1.2.2 亮点 数据 特征 提取 

经 分 析 ， 亮点 的 等 效 直 径 、 强 度 、 偏 心率 、 亮 点 边缘 暗 径 比例 、 速 度 、 运 动 方 式 和 扩散 系数 等 特 
征 值 作为 分 类 的 数据 比较 合理 ， 因 为 这 7 个 属性 相关 度 较 低 ， 并 且 能 代表 亮点 的 光学 强度 、 形 态 和 运 
动 等 方面 的 特点 。 其 定义 如 下 : 

等 效 直径 : 将 每 一 个 亮点 对 应 的 所 有 像素 点 作为 面积 ， 将 其 等 效 为 圆 计算 等 效 直径 。 

最 大 强度 比 : 用 亮点 的 最 大 强度 除 以 整 幅 图 的 平均 强度 描述 亮点 的 强度 。 

偏心 率 : 用 椭圆 两 焦点 间 的 距离 除 以 长 轴 长 度 描述 亮点 的 形状 。 偏 心率 越 大 ,说 明 越 偏向 于 长 椭 
圆 ， 反 之 则 说 明 越 偏向 于 圆 形 。 
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亮点 边缘 暗 径 比例 ， 亮点 的 一 个 重要 特性 是 其 位 于 米粒 暗 径 ， 因 此 提取 了 每 一 个 亮点 边缘 位 于 暗 
径 的 比例 。 

速度 : 通过 亮点 的 质心 位 置 获取 每 两 帧 之 间 的 位 移 计 算 亮 点 的 速度 。 

运动 方式 : 定义 一 个 mt， 其 值 为 位 移 除 以 运动 轨迹 长 度 和 。 位 移 公 式 如 (1) 式 ; 1 WER, n 
为 结束 帧 ， 表 示 亮 点 的 首尾 位 移 ; 运动 轨迹 长 度 和 定义 为 (2) 式 ，(3) 式 即 为 生命 期 内 所 有 位 移 之 和 。 
根据 定义 ，mz 可 以 用 来 定量 描述 亮点 的 运动 轨迹 ， 其 值 范围 为 0 到 WR mt=1， 则 意味 着 亮点 的 
运动 轨迹 为 直线 ; WR mt=0， 则 表示 亮点 从 起 始点 出 发 又 回 到 原点 。 因 此 m 越 接近 1 则 亮点 沿 着 接 
近 直 线 的 轨迹 运动 ， 越 接近 0， 则 亮点 的 轨迹 近似 于 圆 形 。 

扩散 系数 : 扩散 系数 是 描述 亮点 的 扩散 面积 与 时 间 的 关系 ， 定 义 为 (4) 式 ， 其 中 《( Ais)”) 代 表 亮 
点 在 生命 期 中 任意 时 刻 的 位 置 与 初始 位 置 的 平方 位 移 ; y 是 扩散 系数 ; T 是 亮点 的 生命 期 。 扩 散 系 数 
越 大 ， 在 单位 时 间 内 扩散 的 面积 越 大 ， 反 之 亦 然 。 


Displacement = /[ X(n) -~ X(1) ]* + [Y¥(n) - Y(1)]*, (1) 
Totallength = > AX(1)* + AY(t)’, (2) 

AX(t) =X(# +1) -X(t), AY(t1)= Y(t + 1) - Y(t), (3) 
((At)*) = CT", (4) 


这 7 个 属性 中 ， 由 于 每 个 亮点 在 生命 期 内 等 效 直径 、 强 度 、 偏 心率 、 亮 点 边缘 暗 径 比 例 和 速度 这 
5 项 有 多 个 属性 值 ， 因 此 先 分 别 计算 每 个 亮点 在 生命 期 内 这 5 个 属性 的 平均 值 分 别 代 表 其 一 生 的 一 个 
平均 状态 ， 比 如 平均 直径 、 平 均 强 度 、 平 均 偏心 率 、 平 均 边缘 暗 径 比例 和 平均 速度 。 


2 R # 


2.1 数据 预 处 理 
2.1.1 数据 标准 化 

由 于 这 7 个 属性 的 量 纲 不 同 ， 因 此 需要 先 对 数据 进行 标准 化 处 理 。 标 准 化 指 去 除数 据 的 单位 限 
制 ， 将 其 转化 为 无 量 纲 的 纯 数 值 ， 以 便于 不 同 单位 或 量 级 的 指标 能 够 进行 比较 和 加 权 。 采 用 z-score 
标准 化 方法 。 基 本 思想 是 基于 原始 数据 的 均值 (mean ) 和 标准 差 (standard deviation ) 进行 数据 的 标准 
Oh, BH: 本 

x* = o (5) 

其 中 , u 为 所 有 样本 数据 的 均值 ; o 为 所 有 样本 数据 的 标准 差 。 标 准 化 后 的 数据 符合 标准 正 态 分 布 ， 
即 均值 为 0， 标 准 差 为 1。 
2.1.2 数据 降 维 

高 维 数据 包含 了 大 量 宛 余 的 信息 ， 因 此 采用 特征 降 维 的 方法 对 这 7 列 数据 进行 降 维 处 理 。 特 征 降 
维 是 指 在 所 有 的 特征 数据 中 选择 几 个 基本 能 代表 所 有 特征 数据 包含 的 信息 的 主要 特征 数据 ， 一 般 有 两 
类 方法 : 特征 选择 和 特征 抽取 。 特 征 选择 即 从 高 纬度 的 特征 中 选择 其 中 的 一 个 子 集 作 为 新 的 特征 ; 而 
特征 抽取 是 指 将 高 纬度 的 特征 经 过 某 个 函数 映射 至 低 纬度 作为 新 的 特征 。 

主 成 分 分 析 ( Principal Components Analysis, PCA) 是 一 种 无 监督 特征 抽取 降 维 方法 ， 利 用 特征 数 
据 的 内 在 关联 结构 ， 通 过 线性 变换 将 多 维 的 特征 数据 变换 为 维度 较 少 包含 原 有 特征 大 部 分 信息 且 相 互 
独立 的 特征 数据 。 由 于 各 项 特征 数据 不 存在 人 为 关联 ， 可 使 得 最 后 清洗 亮点 的 结果 更 为 合理 ， 因 此 采 
用 主 成 分 分 析 对 亮点 的 七 维特 征 数据 进行 降 维 。 主 成 分 分 析 的 降 维 过 程 描述 如 下 : 

首先 用 每 个 样本 的 多 个 特征 数据 构造 一 个 特征 数据 矩阵 ， 如 (6) 式 。 其 中 , 二 代表 第 几 维 特征 数 
据 ; p 代表 某 维 的 第 几 个 特征 数据 。 
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Xa Xv Xi, 
X X e. X 

X=| h (6) 
Xn Xn ea a 


然后 计算 原始 数据 的 协 方差 矩阵 ， 得 到 每 维 数据 间 的 关系 ; 通过 协 方差 矩阵 算出 特征 向 量 和 特征 
值 ， 将 特征 值 由 大 到 小 排列 ， 给 出 成 分 的 重要 性 级 别 选择 降 维 目标 数 k， 最 后 用 协 方差 矩阵 的 前 列 
乘 以 原始 数据 矩阵 ， 即 得 到 降 维 后 的 数据 和 矩阵。 其中,，% 的 选择 通过 分 析 贡 献 率 确定 ,贡献 率 表示 所 
定义 的 主 成 分 在 整个 数据 分 析 中 承担 的 主要 意义 占 多 大 的 比重 ， 当 取 前 % 个 主 成 分 代替 原来 全 部 变量 
时 ， 累 计 贡 献 率 的 大 小 反应 了 这 种 取代 的 可 靠 性 ， 累 计 贡 献 率 越 大 ， 可 靠 性 越 大 ; 反之 ， 则 可 靠 性 越 
小 。 亮 点 的 7 列 标准 化 后 的 数据 通过 主 成 分 分 析 降 维 后 ， 主 成 份 的 贡献 率 如 图 2， 降 至 一 维 的 贡献 率 
仅 为 46%， 二 维 的 为 71%， 到 第 三 维 时 贡献 率 已 达到 90%， 这 意味 着 三 维 数 据 已 能 代表 原始 数据 
90% 的 意义 ， 因 此 将 七 维 数据 选择 降 至 三 维 。 
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Fig.2 Relation between the rate of contribution and principal component 


2.2 聚 类 处 理 
2.2. 1 K-means 算法 聚 类 

K-means 也 称 为 人- 均值 ， 是 划分 聚 类 方法 中 最 具 代 表 性 的 一 种 算法 。 该 算法 通过 最 近 距 离 的 
原则 把 盖 个 对 象 划分 为 天 个 簇 ， 以 使 复 内 具有 较 高 的 相似 度 。 算 法 首先 随机 选择 夺 个 对 象 ， 每 个 对 象 
初始 代表 了 一 个 簇 的 平均 值 或 中 心 。 然 后 对 剩余 的 每 个 对 象 根据 其 与 各 个 簇 中 心 的 距离 ， 将 它 赋 给 最 
近 的 复 ， 再 重新 计算 每 个 复 的 平均 值 " 5 。 该 过 程 不 断 迭 代 ， 直 到 准则 函数 收敛 。 准 则 函数 定义 为 


B= 之 之 1z- 元 上， (7) 
EP, 是 空间 中 的 点 ， 表 示 给 定 的 数据 对 象 ， 是 秘 的 平均 值 ， 该 准则 的 主要 目标 是 使 生成 的 徐 尽 可 


能 地 紧凑 和 独立 。 
2.2.2 DBSCAN 算法 聚 类 

DBSCAN 是 一 种 基于 密度 的 聚 类 算法 。 该 算法 把 具有 足够 高 密度 的 区 域 划 分 为 复 ， 并 可 以 发 现任 
意 形状 的 聚 类 ， 它 定义 簇 为 基于 密度 的 点 的 最 大 和 集合。 描述 该 算法 之 前 需 做 以 下 定义 : 

定义 1(e- 邻 域 ) : 给 定 对 象 半 径 内 的 区 域 称 为 该 对 象 的 e- 领 域 。 


201711.01089v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


2 期 张 艾 丽 等 : 基于 聚 类 的 太阳 光 球 亮点 的 数据 清洗 237 


定义 2( 核 心 对 象 ) : 如 果 一 个 对 象 的 e- 领 域 至 少 包含 最 小 数目 MinPis 个 对 象 ， 则 称 该 对 象 为 核心 


对 象 。 
定义 3( 直 接 密 度 可 达 ) : 给 定 


一 个 对 象 集合 D， 如 果 p 在 g 的 s- 邻 域内 ， 而 4 是 一 个 核心 对 象 ， 
则 对 象 p 从 对 象 g 出 发 是 直接 密度 可 达 的 。 
定义 4( 密 度 可 达 ) : 如 果 有 一 个 数据 对 象 序列 pl，p2，… 


, pneD, 其 中 pl=g, pn=p, FFA pit 


是 从 pi 直接 密度 可 达 的 ， 则 称 p EM q XF £ Fl MinPts 密度 可 达 的 。 
定义 (密度 相连 ) : 如 果 存 在 一 个 数据 对 象 0 使 得 p 和 7 都 是 从 O 关于 e 和 MinPts 密度 可 达 的 ， 
则 称 p 和 9 是 关于 es Fl MinPts 密度 相连 的 。 
DBSCAN 算法 的 流程 可 描述 如 下 WI ， 首先 通过 检查 数据 库 中 每 个 点 的 se- 邻 域 寻找 聚 类 。 如 果 一 
个 点 p 的 2- 邻 域内 含 多 于 MinPts 个 点 ， 则 建 一 个 以 p 作为 核心 对 象 的 新 徐 。 然 后 ，DBSCAN 反复 地 寻 
找 从 这 些 核心 对 象 直接 密度 可 达 的 对 象 ， 这 个 过 程 可 能 涉及 一 些 密度 可 达 艇 的 合并 。 当 没有 新 的 点 可 


以 被 添加 到 任何 簇 时 ， 


3 结 R 


该 过 程 结 


3.1 K-means 算法 聚 类 结 

K-means 算法 在 设置 清洗 目标 数 为 2 时 的 结 
果 如 图 3， 图 中 ， 实 心 圆 型 ( 蓝 色 ) 代 表 亮 点 ， 十 
字 型 ( 玫 红 色 ) 和 米 字 型 (大 红色 ) 代表 噪声 点 。 
但 对 照 原始 图 像 发 现 噪声 点 的 数目 过 多 ， 把 很 多 
亮点 也 包含 在 内 ， 因 此 对 第 1 次 清洗 出 的 噪声 点 
再 用 K-means 进行 第 2 次 清洗 ， 结 果 如 图 3 中 的 
十 字 型 ( 玫 红 色 ) 和 米 字 型 (大 红色 ) 点， 米 字 型 
(大 红色 ) 即 为 第 2 次 清洗 出 的 噪声 点 。 


为 检验 清洗 的 结果 是 否 有 效 ， 首 先 将 第 2 次 
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图 3 K-means 算法 清洗 数据 的 结 
Fig.3 The cleaning result of the K-means algorithm 


清洗 后 的 结果 通过 不 同 颜色 显示 在 二 维 图 中 。 图 4 显示 的 是 其 中 一 帧 二 维 图 像 ，(a) 是 原 图 ，(b) 中 


蓝 色 代表 亮点 ， 红 色 代 表 噪 声 点 。 


(b) 


Z: Time/min 


图 4 (a) RA; (b)K-means 算法 清洗 的 亮点 在 二 维 图 上 的 显示 ; 


(c)K-means 算法 清洗 结果 在 三 维 时 空 立方 体 中 的 显示 
Fig.4 (a) One G-band image; (b) The cleaning result of the K-means algorithm of (a); 


(c) The cleaning result of the K-means algorithm in the three-dimension space-time cube 


由 于 采用 特征 数据 表示 亮点 的 演化 特征 ， 因 此 在 三 维 时 空 立方 体 中 通过 不 同 的 颜色 标注 噪声 点 和 


亮点 的 三 维 演化 结构 ， 如 图 4(c) ， 红 色 代 表 噪 声 点 ， 蓝 色 代表 亮点 。 从 亮点 的 三 维 演 化 结构 可 以 看 
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到 ， 噪 声 点 的 三 维 演化 结构 有 长 有 短 ， 有 大 有 小 ， 运 动 的 轨迹 也 是 各 式 各 样 ， 因 此 进一步 在 时 间 序 列 
图 中 分 析 K-means 算法 清洗 的 结 

图 5 显示 了 亮点 和 噪声 点 在 其 生命 期 中 的 演化 情况 。 用 不 同 的 颜色 标记 用 K-means 算法 清洗 后 的 
亮点 以 及 噪声 点 的 演化 过 程 ， 红 色 代 表 噪 声 点 ， 蓝 色 代 表 亮 点 。 对 照 图 (a) 和 (b)， 圈 1、2 和 3 对 应 
的 位 置 上 分 别 示意 了 3 种 不 同 的 演化 情况 : 圈 1 对 应 的 位 置 是 一 个 自始至终 在 米粒 暗 径 中 的 亮点 ， 圈 
2 对 应 的 位 置 是 一 个 自始至终 在 米粒 上 的 噪声 点 ; 而 圈 3 则 反应 了 另 一 种 情况 ，K-means 算法 分 类 是 
一 个 亮点 ,但 在 对 应 位 置 上 看 到 其 在 19:02:50 UT 时 在 米粒 上 ， 所 以 清洗 存在 误差 。K-means 算法 一 
共 清 洗 出 29 个 噪声 点 ， 通 过 分 析 所 有 的 演化 发 现 满 足 非 亮 点 结构 的 有 23 个 ， 即 K-means 算法 清洗 的 
正确 率 为 80% 。 


图 5 (al) 一 段 序列 图 ; (b)K-means 算法 清洗 的 亮点 演化 
Fig.5 (a) A time-series; (b) Evolution of corresponding PBPs cleaned by the K-means algorithm 


画 


3.2 DBSCAN 算法 聚 类 结 ae 
DBSCAN 算法 清洗 结果 如 图 6， 图 中 ， 实 心 医 上 | eL 
型 ( 蓝 色 ) 代 表 亮 点 ， 米 字 型 (红色 ) 代 表 噪 声 点 。 i > 十 一- 

为 检验 清洗 的 结果 是 否 有 效 ， 将 清洗 后 的 结 
果 通 过 不 同 颜 色 显 示 在 二 维 图 中 。 图 7 显示 了 其 
中 一 帧 二 维 图 像 ，(a) 是 原 图 ，(b) 中 蓝 色 代表 
亮点 ， 红 色 代 表 噪 声 点 。 

在 三 维 时 空 立 方 体 中 通过 不 同 的 颜色 标注 噪 
声 点 和 亮点 的 三 维 演化 结构 如 图 7(c)， 红色 代 
RERA, KORRAS Ethos 33 et 

进一步 在 时 间 序 列 图 中 分 析 DBSCAN 算法 清 
洗 的 结果 。 图 8 显示 了 亮点 和 噪声 点 在 其 生命 期 
中 的 演化 情况 。 用 不 同 的 颜色 标记 了 用 DBSCAN 
算法 清洗 后 的 亮点 以 及 噪声 点 的 演化 过 程 ， 红 色 代 表 噪 声 点 ， 蓝 色 代 表 亮 点 。 圈 1、2 和 3 对 应 的 位 
置 上 分 别 示意 了 3 种 不 同 的 演化 情况 : 圈 1 对 应 的 位 置 是 一 个 自始至终 在 米粒 暗 径 中 的 亮点 ; E 2 对 
应 的 位 置 是 一 个 自始至终 在 米粒 上 的 噪声 点 ;而 圈 3 则 反应 了 另 一 种 情况 ，DBSCAN 算法 认为 它 是 一 
个 亮点 ， 但 在 对 应 位 置 上 看 到 其 在 19:02:50 UT 时 在 米粒 上 ， 因 此 清洗 存在 误差 。DBSCAN 算法 清洗 
出 的 噪声 点 数 为 38 ， 通 过 分 析 亮 点 的 演化 得 出 : 满足 非 亮 点 结构 的 有 20 个 ， 即 DBSACN 算法 清洗 的 
正确 率 为 53% 。 


Z: The Third Column 
nt N © N + lon oo 
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图 6 DBSCAN 算法 清洗 结果 
Fig.6 The cleaning result of the DBSCAN algorithm 
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Time/min 


图 7 (a) RA; (b)DBSCAN 算法 清洗 的 亮点 在 二 维 图 上 的 显示 ; 
(c)DBSCAN 算法 清洗 结果 在 三 维 时 空 立方 体 中 的 显示 
Fig.7 (a) One G-band image; (b) The cleaning result of the DBSCAN algorithm corresponding (a); 


(c) The cleaning result of DBSCAN algorithm in the three-dimension space-time cube 


图 8 (a) 一 段 序列 图 ; (b)DBSCAN 算法 清洗 的 亮点 的 演化 
Fig.8 (a) A time-series; (b) Evolution of corresponding PBPs cleaned by the DBSCAN algorithm 


4 总 结 和 展望 


本 文采 用 聚 类 方法 清理 亮点 数据 ， 以 达到 将 非 亮点 结构 从 亮点 结构 中 剔除 的 目的 。 首 移 采 用 
LMD 算法 识别 每 一 帧 图 像 中 的 亮点 ， 采 用 三 维 时 空 立方 体 思 想 进行 跟踪 。 然 后 提取 能 代表 亮点 的 光 
学 强度 、 形 状 和 运动 特性 的 7 个 相关 度 较 低 的 特征 值 ， 包 括 等 效 直 径 、 强 度 、 偏 心率 、 亮 点 边缘 在 暗 
径 中 的 比例 、 速 度 、 运 动 方式 和 扩散 系数 。 由 于 这 些 数 据 量 纲 不 一 致 ， 首 先 采 用 zscore 法 进行 标准 
化 ; 又 考虑 到 高 维 数据 包含 匈 余 和 相关 的 信息 ， 因 此 采用 主 成 份 分 析 法 进行 降 维 分 析 ， 选 择 90% 的 
贡献 率 将 数据 降 到 三 维 。 最 后 分 别 采 用 K-means 算法 和 DBSCAN 算法 对 光 球 亮点 数据 进行 清洗 。 经 
过 检验 发 现 两 种 聚 类 算法 均 能 达到 将 非 亮点 结构 清洗 出 来 的 目的 ， 但 还 存在 一 定 的 误差 。K-means 算 


240 天 文 研究 与 技术 


法 的 正确 率 为 80%，DBSCAN 算法 的 正确 率 为 53%。 因 此 ，K-means 算法 比 DBSCAN 算法 更 适合 清洗 
非 亮点 结构 。 

本 文 提 供 了 一 个 较 好 的 方法 剔除 识别 中 不 可 避免 的 噪声 ， 为 小 尺度 的 磁场 研究 清洗 出 更 为 准确 的 
亮点 数据 ， 这 对 进一步 研究 日 冕 加 热 等 问题 提供 了 更 为 准确 的 数据 。 但 是 ， 从 目前 的 结果 可 以 看 出 ， 
仍旧 存在 一 些 需 要 改进 的 地 方 。 如 算法 的 结果 误差 较 大 、 对 阔 值 和 参数 的 选取 有 较 大 的 依赖 性 ; 两 个 
算法 的 不 同 ， 清 洗 的 正确 率 有 可 能 是 因为 其 物理 模型 调整 、 清 洗 所 需 的 参数 及 其 权重 导致 的 ， 亮 点 的 
等 效 直径 、 强 度 、 偏 心率 等 参数 与 空间 分 辨 率 有 关系 ， 因 此 对 于 不 同 分 辩 率 的 观测 结果 可 能 有 不 同 的 
清洗 结果 。 在 今后 的 工作 中 ， 将 进一步 对 算法 进行 改进 ， 并 考虑 物理 参数 等 因素 ， 得 到 更 为 精确 、 合 
理 的 清洗 结 

致谢 ， 感谢 Hinode 团队 提供 数据 。 
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Data Cleaning for Photospheric Bright Points 
Based on Clustering Analysis 
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Kunming 650500, China, Email; jikaifan@ cnlab.net) 


Abstract: Photospheric Bright Points (PBPs) are usually confused with the bright granules near the 
inter-granular dark lanes, because of their small-scale and fuzzy boundary. This paper uses the K-means and 
DBSCAN algorithm to differentiate the non-PBPs from PBPs candidates. First, Laplacian and morphological 
dilatation algorithm is employed to extract PBPs candidates from images, and a three-dimensional algorithm is 
used for tracking the evolutions of PBPs candidates. Second, seven properties of each candidate are calculated. 
They are diameter, intensity, eccentricity, the proportion of their boundary in the dark lanes, horizontal 
velocity, motion type and diffusion index, respectively. After standardizing data, principal component analysis 
is used for reducing the seven-dimensional data to three-dimensional. At last, non-PBPs are cleaned by K- 
means algorithm and DBSACN algorithm, respectively. The result shows that both K-means and DBSCAN 
algorithm can be used to clean the non-PBPs from PBPs candidates. The processing accuracy of K-means 
algorithm is around 80% , and that of the DBSCAN algorithm is 53%. The result indicates that the K-means 
algorithm is more suitable for cleaning the non-PBPs than DBSCAN algorithm. 

Key words: Photospheric bright points; Non-bright points; Clustering algorithm; K-means algorithm; DBSCAN 
algorithm 


